Day 13：大型語言模型訓練流程 — Data Pipeline 與損失函數 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 13

佛心分享-IT 人自學之術

LLM入門學習系列第 13 篇

Day 13：大型語言模型訓練流程 — Data Pipeline 與損失函數

17th鐵人賽

max1112

2025-09-27 15:13:23

128 瀏覽

分享至

1. 大型語言模型訓練的 Data Pipeline

大型語言模型 (LLM) 的訓練是一個龐大而複雜的工程，它需要精密的數據處理管線 (Data Pipeline) 來高效地餵養模型，並依靠交叉熵損失 (Cross-Entropy Loss) 來指引模型學習的方向。Data Pipeline 是整個訓練流程的後勤系統，旨在將海量、雜亂的原始文本，轉化為模型能穩定、高效消耗的結構化數據。

階段一：數據預處理 (Data Preparation)

這一步決定了模型的品質和安全性：

資料蒐集：從網頁、書籍、程式碼庫等來源獲取兆級別的原始文本。必須仔細處理資料品質、版權與合規、以及多樣性等問題。
清理與過濾：移除重複內容、特殊字元，並過濾掉低品質、太短或太長的段落，以及任何敏感資訊。
Tokenization：使用 BPE / SentencePiece 等技術，將清洗後的文字轉換成模型能理解的 Token ID 序列。

階段二：數據管線 (Data Ingestion)

這是最大化 GPU/TPU 效率的關鍵環節：

資料分批 (Batching)：將多個 Token ID 序列組織成一個批次 (Batch)。這是為了利用硬體對大型矩陣運算的並行處理能力。
填充 (Padding)：由於同一個 Batch 中的序列長度必須一致，較短的序列會用特殊符號填充。
Masking (依任務不同)：
- GPT (自回歸模型)：不需要額外的 Masking，模型只需從左到右預測下一個 Token。
- BERT (自編碼器模型)：需要 Mask Language Modeling (MLM)，即隨機遮蔽一部分 Token。